对自然语音和记录的脑电图 (EEG) 之间的关系进行建模有助于我们了解大脑如何处理语音,并且在神经科学和脑机接口中具有各种应用。在这种情况下,到目前为止主要使用线性模型。然而,由于人脑听觉处理的复杂性和高度非线性,线性模型的解码性能受到限制。我们提出了一种基于长短期记忆 (LSTM) 的新型架构作为非线性模型,用于分类给定的一对 (EEG,语音包络) 是否相互对应。该模型使用 EEG 路径中的 CNN 和语音路径中的 LSTM 将 EEG 和包络的短段映射到公共嵌入空间。后者还可以补偿大脑反应延迟。此外,我们使用迁移学习来针对每个受试者微调模型。所提出模型的平均分类准确率达到 85%,明显高于最先进的基于卷积神经网络 (CNN) 的模型 (73%) 和线性模型 (69%)。
![arXiv:2002.10988v1 [eess.AS] 2020 年 2 月 25 日PDF文件第1页](/bimg/e/e5f2ba2610d1787904769903a46628e418d174e7.webp)
![arXiv:2002.10988v1 [eess.AS] 2020 年 2 月 25 日PDF文件第2页](/bimg/9/9e9fa572315770a3506d4d9643699213a694a0b7.webp)
![arXiv:2002.10988v1 [eess.AS] 2020 年 2 月 25 日PDF文件第3页](/bimg/c/c144085c695d9110754aff76f6e662a614a86708.webp)
![arXiv:2002.10988v1 [eess.AS] 2020 年 2 月 25 日PDF文件第4页](/bimg/8/8223612e4e66a50c626b635a2fda10eb5757b642.webp)
![arXiv:2002.10988v1 [eess.AS] 2020 年 2 月 25 日PDF文件第5页](/bimg/9/94e75e8aa5850581bc15a35230567eb03c3f829c.webp)
